Proceso estratificación para estimaciones por año del hecho, estimaciones totales y perpetrador
Víctimas de homicidio - 1985–2018
Introducción
Si es su primera vez trabajando con los datos, no está muy familiarizado con el
paquete o simplemente quiere conocer más sobre el proyecto y el objetivo de
estos ejemplos y el paquete verdata, consulte:
https://github.com/HRDAG/CO-examples/blob/main/Introducción/output/Introducción.html
antes de continuar.
En este ejemplo se ilustrará el proceso de estratificación para el posterior proceso de estimación del total de víctimas (vinculadas al conflicto armado) por año del hecho, perpetrador y también las víctimas totales (1985–2018) ya que, en comparación con otros ejercicios, el presente ejemplo nos permitirá estimar el subregistro de víctimas desagregadas por estas variables sin necesidad de realizar tres tipos de estratificaciones.
Autenticando e importando la base de datos (réplicas)
Se comienza autenticando e importando la base de datos de homicidio, esto a
través de dos funciones del paquete verdata: las funciones confirm_files y
read_replicates. La autenticación de los datos es pertinente dado que estos
fueron publicados con la licencia de atribución 4.0 internacional de Creative
Commons (CC BY 4.0). Esta licencia permite la distribución y modificación de la
información y, considerando que usted pudo haber llegado a estos datos por medio
de diferentes fuentes, es importante que sepa si han sido modificados o no, para
lo que puede hacer uso de estas dos funciones.
La función confirm_files autentica los archivos que han sido descargados.
Considerandoque cada violación tiene hasta 100 réplicas, esta función permite
autenticar cada uno de estos archivos sin necesidad de leerlos a R. Esto, en
caso de querer ahorrar recursos computacionales, o en caso de que no vaya a
realizar su análisis con todas las réplicas. Esta función devolverá una tabla
con dos columnas: una indicando la ruta del archivo y otra indicando si el archivo
es igual al publicado. En caso de que al menos uno de los archivos no sea igual,
la función devuelve el mensaje “Some replicate file contents do not match the published versions”.
Además, la función read_replicates permite 2 cosas: leer las réplicas a R en
una sola tabla (ya sea a partir de un formato csv o parquet) y verificar
que el contenido de las réplicas sea exactamente igual al publicado.
Cuando el argumento crash tiene su valor por default (TRUE), la función
retorna un objeto (data frame) si el contenido es igual, y el mensaje
“The content of the files is not identical to the ones published. This means the results of the analysis may potentially be inconsistent.” si el contenido de la base fue
previamente alterado/modificado, lo que quiere decir que los análisis que el
usuario realice serán inconsistentes y llevarán a resultados erróneos.
Este último error significa que nos datos no se han leído a R. Si por alguna
razón, usted quiere leer dicha información a pesar de saber que no son los mismos datos
originalmente publicados, puede cambiar el argumento crash a FALSE, y,
en ese caso, podrá ver los datos junto con el mismo mensaje de advertencia.
replicas_datos <- verdata::read_replicates(here::here("verdata-parquet/homicidio"),
"homicidio", c(1:10))
paged_table(replicas_datos, options = list(rows.print = 10, cols.print = 5))Vemos que tenemos 5 543 690 registros, nuestras réplicas van desde la número 1 hasta la 10. Además, nuestros datos tienen información sobre la categoría de edad de la víctima, el presunto perpetrador, el sexo, el año del hecho, la pertenencia étnica, entre otros. Sin embargo, para centrarnos en un análisis más específico, tal como el realizado para el anexo metodológico, procederemos a crear, transformar y/o filtrar algunas variables.
Filtrando las réplicas acorde con el filtro del anexo metodológico
La función filter_standard_cev nos permite transformar o filtrar nuestra
información. Por ejemplo, las víctimas que se documentaron como víctimas
de la ex-guerrilla FARC-EP en años posteriores a 2016 pasaron a ser víctimas de
otras guerrillas, ya que este primer grupo oficialmente dejó de existir después
de dicho año (perp_change = TRUE). Adicionalmente filtramos por los homicidios
ocurridos dentro del marco del conflicto armado (is_conflict == 1).
replicas_estratos <- verdata::filter_standard_cev(replicas_datos,
"homicidio",
perp_change = TRUE) %>%
dplyr::mutate(is_conflict = as.integer(is_conflict)) %>%
dplyr::filter(is_conflict == 1)
paged_table(replicas_estratos, options = list(rows.print = 10, cols.print = 5))